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Beschreibung 

Verfahren zur Erstellung von fur DatensStze aus einer Datenbank, insbesondere 
aus dem World-Wide-Web, charakteristischen tCuisdatensateen, Verfehren sur 
Ermittlung von fUr eine vorgebbare Suchanfrage relevanten DatensStzen aus 
einer Datenbanic und Suclisystem zur DurchfUhrung des Verfalirens 

Die Erfindung bezieht sicii auf ein Verfahren zur Erstellung von fQr DatensSIze aus ei- 
ner Datenbank. insbesondere aus dem Worid-Wide-Web. charakteristischen Kurzda- 
tensatzen zur Hinterlegung auf einem Speichemiodul als Basis zur Emiittiung der fur 
eine vorgebbare Suchanfrage relevanten Datensatze. Sle betrifft waiter ein Verfahren 
zur Ermittlung von fiir eine vorgebbare Suchanfrage relevanten DatensStzen aus einer 
Datenbank, Insbesondere aus dem World-Wide-Web, bei dem derartige Kurzdaten- 
satze auf ihre Relevanz fQr die jeweilige Suchanfrage hin durchsucht werden. Weiterhin 
betrifft die Erfindung ein Suchsystem zur Emnittlung von ftir eine vorgebbare 
Suchanfrage relevanten Datensatzen aus einer Datenbank, insbesondere aus dem 
World-Wide-Web. 

in komplexen Datenbanken oder auch im weltumspannenden Computemetz (..World- 
Wide-Web") wird eine enomrie IVIenge an Infonnatlonen bereitgehalten. die ein Benut- 
zerzu Recherchezwecken mehr oder weniger gezielt abrufen kann. Um dabei Infonna- 
tionen aus der grolien Infomiationsmenge heraus gezielt nutzbar machen zu konnen. 
kommen so genannte Suchmaschinen zum Einsatz. die gerade bei der Informationsbe- 
schaffung aus dem Worid-Wide-Web teiiweise erhebliche VertDreitung erfahren haben. 
Bei derartigen Suchmaschinen wird dem Benutzer Qblichenweise Qber ein Ein- 
/Ausgabemodul ein Anfragenfenster zur Verftigung gestellt. Qber das gezielte Such- 
oder Recherchebegriffe vorgegeben werden kSnnen. Anschlieliend durchsucht die 
Suchmaschine die Infomnatlonsbasis der Datenbank bzw. des Worid-Wlde-Web nach 
geeigneten SchlQssel- oder KeywSrtem. Die daraufhin aufgefundenen Antwortdaten- 
satze werden Qblichenweise von der jeweiligen Suchmaschine hinsichtlich ihrer Rele- 
vanz ftir den vorgegebenen Suchauflrag kategorislert und dem Benutzer in der Art einer 
Trefferiiste in nach ihrer Relevanz geordneter Reihenfolge zur VerfQgung gestellt. 



BESTATIGUNGSKOPIE 
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Allerdlngs berertet die zunehmende Komplexitat der eingesetzten Datenbanl<en und 
insbesondere der stetig wachsende enorme Informationsgelialt im World-Wide-Web 
zunehmende Probleme bei der strukturierten und gezielten Beschaffung von Informa- 
tionen. Die fur die Reclierche eingesetzten Suchmascliinen werden daher zunehmend 
bezuglicli der eingesetzten Suchalgorithmen verbessert. wobei zudem In der Art von 
Vorsortiemngen Oder Vorfilterungen welters Hilfsmittel zur Klassifizierung von Daten- 
satzen aus der Datenbank zum Einsatz kommen kOnnen. Insbesondere im Wortd- 
Wide-Web sind die DatensStze Qblichenvelse in Fomi von so genannten Domains 
stmkturiert und organisiert. wobei eine Domain typischenveise von einem Betreiber 
unterhalten wird und ihrerseits eine Vielzahl von UnterdatensStzen. Textdokumenten 
Oder dergleiclien umfassen kann. 

Urn gerade bei der Infonnationsbeschaflling aus dem World-Wide-Web trotz der enor- 
men Vielzahl der dort verfugbaren DatensStze Oder Domains mit einem seinereeits 
mdglichenA/eise vergleichsweise groBen Inhalt an Unterdatensatzen oder 
Infomiationstragem eine geeignete Vorauswahl von bei einer vorgegebenen Suchan- 
frage zu berucksichtigenden Domains treffen zu kSnnen, kann ein so genanntes Ran- 
king der Domains zum Einsatz kommen. Dabei wird jeder Domain ein Kennwert zuge- 
ordnet. der anhand von zuganglichen SekundSrinformationen in der Art einer relativen 
Relevanz die Wichtlgkeit der BerQcksichtigung der jeweiligen Domain fOr die Suchan- 
frage charakterisiert. Bei der Zuordnung dieses Kennwerts zur jeweiligen Domain wird 
QblichenA/eise in der Art eines so genannten statischen Ansatzes eine Informationsba- 
sls herangezogen. bei der beispielsweise aufgrund des Grades der Vemetzung der je- 
weiligen Domain mit anderen Domains auf die relative Bedeutung der jeweiligen Do- 
main geschlossen. wird. Als Mafi fOr eine derartige Bedeutung kann die Anzahl der so 
genannten Links oder Quervenweise von anderen Domains auf die jeweilige Domain 
herangezogen werden. wobei die Annahme zugmnde gelegt wird, dass eine Vielzahl 
von Querverweisen auf die jeweilige Domain ein Hinwels darauf ist. dass diese Domain 
far eine Vielzahl von Benutzem von besonderer Wichtlgkeit bei der Beartjeitung Ihrer 
Suchanfragen ist. 



Allerdings hat sich gezelgt. dass bei der Zuordnung einer derartigen statischen Kenn- 
grolie als Relevanzindikator fQr die jeweilige Domain Spielraum fQr Manipulationen 
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besteht, wobel unabhSnglg von den elgentlichen Benutzerinteressen aufgrund wirt- 
schaftlicher Entscheldungen durch die Hersteliung einer VIeizahl sachllch elgentlich 
nicht gerechtfertigter Links Oder Quen/enA/eise l<unstlich der EIndmcIc einer vergieichs- 
weise liohen Relevanz oder Bedeutsamkeit der jeweiligen Domain erzeugt werden 
kann. Die Verwendung derartiger statischer Relevanzzuordnungen zur Verbesserung 
der Suchergebnisse von Intemet-Recherchen 1st daher von eher abnehmendem In- 
teresse. 



Die enomien. im World-Wide-Web oder Internet verfQgbaren Informationsmengen ma- 
chen bel der DurchfOhrung einer Informationsrecherche die tatsSchliche Durciisuchung 
samtllcher Domains Inklusive der darin entiialtenen Unterdatensatze oder Textbau- 
stelne in Eclitzeit auf das Vorhandensein der Suclianfrage oder von einzelnen Ele- 
menten der jeweiligen Suchanfrage unmoglich. Start dessen kommen in Suchsystemen 
Oder Suchmaschinen fQr die Infomiationsbeschaffung aus dem Internet oder World- 
Wide-Web so genannte ..Crawler" oder Durchsuchermodule zum Einsatz. die stSndlg 
die Domains oder DatensStze aus dem World-Wide-Web bzw. einer komplexen 
Datenbank auf ifiren Textinhalt oder andere als relevant erachtete Infomiationen hin 
durchsuchen. Im Rahmen von vorgegebenen Systemressourcen (belspielswelse Bear- 
beitungszeit, Spelcherkapazitat oder Rechenlelstung) durchsucht das jeweilige Durch- 
suchemfiodul die gerade angewahlte Domain oder den Datensatz und stellt bis zu einer 
durch die zugewiesenen Systemressourcen vorgegebenen Grenze anhand der in der 
jeweiligen Domain aufgefundenen Informationen einen far die Domain oder den Da- 
tensatz charakteristischen Kurzdatensatz, belspielswelse in Form einer Textdatei mit 
mOgllcherweise zugeordneten Oberschrlften oder sonstigen Indikatoren. zusammen. 

Dieser Kurzdatensatz wird sodann auf einem Speichemiodul hinteriegt und fQr eine 
naohfolgende Untersuchung bereitgehalten. Die Gesamthelt der aus den Qberhaupt bel 
diesem Vorgehen beriicksichtigten DatensStze Oder Domains erstellten, auf dem 
Speichemiodul hinterlegten KurzdatensStze wird auch als so genannter ..Index" der je- 
weiligen Suchmaschlne .bezeichnet und dient als Infomnationsbasis fQr die nachfolgend 
durchgefQhrten Recherchen. Die Erstellung der Im Index enthaltenen Kurzdatensatze 
erfolgt dabel Qblichenweise kontlnulerllch. wobel Individuelle Domains zykiisch ange- 
wahlt werden, so dass eine andauemde Aktualisieaing des Index erfolgt. Bei einer 



wo 2004/097670 

PCT/EP2004/003972 

-4- 

nachfolgenden Recherche, also bel der Ermlttlung der fCir eine vorgegebene Suchan- 
frage relevanten DatensStze. wird sodann der durch die Gesamtheit der hinterlegten 
Kurzdatensatze geblldete Index auf das Vorhandensein von SchlQssel- oder KeywSr- 
tern der jeweillgen Suchanfrage oder von Einzelelementen davon durchsucht. wobei 
anhand der dabel erzielten Suohergebnisse oder Treffer die den aufgefundenen 
Kurzdatensatzen zugeordneten DatensStze oder Domains als relevant fQr die jewelllge 
Suchanfrage ermlttelt werden. 

Aufgrund der VIelzahl der Im World-Wlde-Web verfQgbaren Domains oder DatensStze 
kOnnen nicht samtllche Domains bel der Erstellung der Kurzdatensatze beruckslchtigt 
werden. Die Entscheldung, welche Domains bel der Erstellung des Index berQckslchtigt 
werden. erfolgt dabei Qbllchenvelse anhand der oben genannten Relevanzkriterlen. 
also Insbesondere anhand von Informatlonen uber eine erkannte oder venneintliche 
Bedeutung der jeweiligen Domain fiir die Benutzer. Gerade da Infolge der verfOgbaren 
Infomiatlonsvlelfalt eine besonders zlelgerlchtete Voreortlerung der Infonnatlonen und 
insbesondere der als fQr eine Suchanfrage relevant erkannten Datensatze fOr die 
nachfolgende Auswertung der Rechercheergebnisse sehr bedeutsam sein kann, 1st 
berelts bel der Erstellung des so genannten Index efne besonders hohe QualltSt und 
Sorgfalt bel der Auswertung der berilckslchtigten Informatlonen wQnschenswert. 

Der Erfindung llegt daher die Aufgabe zugmnde. ein Verfahren zur Erstellung von fOr 
Datensatze charakterlstlschen Kurzdatensatzen der oben genannten Art anzugeben, 
mit dem eIn fQr eine qualitativ hochwertige Informatlonsbeschaffung aus der Datenbank 
Oder aus dem Worid-Wide-Web besonders geeigneter Suchlndex erzeugt werden 
kann. Des Weiteren sollen unter Verwendung dieses Verfahrens eIn besonders geeig- 
netes Verfahren zur Ermlttlung von fQr eine vorgebbare Suchanfrage relevanten Da- 
tensatzen aus einer Datenbank, Insbesondere aus dem World-Wlde-Web, und eIn 
Suchsystem zur DurchfQhrung dieses Verfahrens angegeben werden. 

BezQglich des Verfahrens zur Erstellung der fQr die Datensatze charakterlstlschen 
Kurzdatensatze wird diese Aufgabe erflndungsgemaii gelSst. Indem die zur Erstellung 
eInes Kurzdatensatzes aus einem Datensatz bereltgestellten Systemressourcen unter 
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BerQckslchtigung von ermittelten Erfahrungswerten aus vorangegangenen Suchanfra- 
gen gewShIt werden. 



Die Erfindung geht dabei von der Oberlegung aus. dass fOr die Erzeugung einer fQr 
qualitativ besonders hochwertige Informationsbeschaffung besonders geeigneten In- 
formationsbasis auf der Grundlage der fQr die DatensStze charakteristischen Kur^a- 
tensatze zwar einerseits in der Art statlscher Kennwerte verfOgbare /nformationen Ober 
die einzelnen DatensStze oder Domains an sich berticksichtigt werden k6nnen. das 
aber andererseits in der Art eines dynamisohen Elements auch fDr die Benutzerinteres- 
sen charakterlstische Infbnnationen mItberQcksichtigt werden sollten. Dabei liegt die 
Erkenntnis zugmnde, dass das Ergebnis eIner Infomiationsbeschaffung aus der Da- 
tenbank oder dem World-Wide-Web dann als qualitativ besonders hochwertig angese- 
hen wind, wenn es In mQglichst welt reichendem Umfang das Benutzerinteresse kon-ekt 
widerspiegelt. Es sollten daher Malinahmen getroffen werden. um fQr das Benut- 
zerinteresse charakteristische Informationen in die weltere Informationsbeschaffung 
einflieRen zu lassen. EIn Ansatzpunkt hierfQr 1st bereits die Erzeugung der Infomiatl- 
onsbasis fur die Bearbeitung der Suchanfragen. so dass sich Informationen Ober das 
Besucherinteresse bereits bel der Erzeugung der fQr die Datensatze oder Domains 
charakteristischen KurzdatensStze im Index niederschlagen sollten. Um dies zu er- 
moglichen. werden bererts bei derZuweisung der Systemressourcen. die fOr die Er- 
stellung eines Kurzdatensatzes aus einem zugeordneten Datensatz aufgewendet wer- 
den konnen und somit die VollstSndigkelt der im Kurzdatensatz fur die Informationsbe- 
schaffung bereitgehaltenen Infomiationen entscheidend mitbestimmen. im Hinblick auf 
das Benutzerinteresse unfer BerQcksichtigung von Erfahrungswerten aus vorange- 
gangenen Suchanfragen zugewlesen. 

In besonders einfacher und prSgnanter Weise konnen die Benutzerinteressen bereits 
bei der Erstellung des Index berQcksichtigt werden. indem vorteilhaftenweise bei der 
Zuordnung der Systemressourcen die HSufigkeit von zu einer Suchanfrage gleichen 
Oder ahnlichen Suchanfragen In der jQngsten Vergangenheit als Erfahrungswert be- 
rQcksichtigt wird. In welterer vorteilhafter Ausgestaltung kann dabei auch die Treffer- 
haufigkeit der Datensatze oder Domains bzgl. der von den Benutzem in jQngster Ver- 
gangenheit besonders haufig vorgegebenen Suchanfragen berticksichtigt werden. Die 
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Erfahrungswerle umfassen daher zweckmSRIgerweise eine for die Anzahl gleichartiger 
Suchanfragen in efnem vorgebbaren Zeitlnteivall charakteristische Kennzahl. 

Um die Benutzerinteressen besonders zielfQhrend bereits bei der Erstellung des Index 
for die Suchmaschine berticksichtigen zu konnen. werden vorteilhafterweise als 
Systemressourcen die Ressourcen eines zur Erstellung der fOr die Datensatze jeweils 
charakteristischen KurzdatensStze vorgesehenen Durchsuchermoduls oder Crawlers 
unter Beriickslchtigung von ermlttelten Erfahrungswerten aus vorangegangenen 
Suchanfragen gewShlt. 

In einer besonders vortellhaften Ausgestaltung werden die Benutzerinteressen bei der 
Zuordnung der Systemressourcen besonders weitgehend berQcksichtigt. indem bei der 
Ermittlung der Erfahrungswerte In besonderem Mali die moglicherweise komplexe 
Strukturdervon den Benutzern venvendeten Suchanfragen berQcksichtigt wird. Dabei 
liegt die Erkenntnis zugrunde. dass ein besonders genaues Abblld des allgemeinen 
Benutzerinteresses nicht allein durch die relative HSufigkelt einzelner in Suchanfragen 
venA^endeter Elemente oder Begriffe. sondem eigSnzend oderzusStzHch auch noch 
durch die BerQcksichtigung von spezifischen Korrelationen zwischen einzelnen Begrif- 
fen Oder Elementen von Suchanfragen enzielt werden kann. Dabei wird Insbesondere 
berQcksichtigt. dass einzelne Elemente oder Komponenten eIner Suchanfrage ent- 
sprechend dem aktuell gerade verbrelteten Benutzerinteresse bevorzugt in Kombina- 
tion mit spezifischen anderen EInzelelementen oder Komponenten von Suchanfragen 
angefragt werden. Beispielsweise kdnnte das aktuelle Benutzerinteresse Im Allgemei- 
nen aktuell in eine Richtung gehen. dass bevorzugt kostenlose Multimedla-Dateien aus 
dem Internet heruntergeladen werden sollen. In einer derartigen Konstellation ist bei 
Suchanfragen vemiehrt mit einer Kombinatlon der Suchbegriffe „MP3«, „free" und 
„download" zu rechnen. Bei der spezifischen Bewertung und BerQcksichtigung vergan- 
gener Suchanfragen kann somit die Kombinatlon dieser drel Einzelelemente einer 
Suchanfrage als ein besonders gewichtiger Indikator fOr gesteigertes Benutzerinteresse 
gewertet werden. Um dies zu ermSglichen, werden bei der Ermittlung der Erfah- 
rungswerte vorzugsweise Korrelationen zwischen EInzelelementen der Suchanfragen 
berQcksichtigt. 
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Um in der Art einer ersten Vorfilterung eine vergleichsweise einfach beschaffbare Ein- 
gangslnformation fQrdle Bewertung von Suchanfragen und ihrer Relevanz fQr die Da- 
tensatze bereltzustellen. wird bei der Ermittlung der Erfahrungswerte vorteilhafterwelse 
die relative Haufigl<eit von Suchanfragen und/oder von Einzelelementen der 
Suchanfragen berQcksichtigt. Dies kann auf besonders einfache Welse unmittelbar bei 
der Erstellung des Index berQcksichtigt werden. indem denjenigen DatensStzen, die fQr 
eine vorgegebene Suchanfrage oder fQr eine voigegebene Kombination aus 
EInzelelementen von Suchanfragen als relevant erkannt werden. vorteilhaflenrt^eise in 
Abhangigkert von der relativen Hflufigkeit der Suchanfrage bzw. der Kombination aus 
Einzelelementen von Suchanfragen zusStzliche Systemressourcen fQr die Erstellung 
des zugeordneten Kurzdatensatzes zugewiesen werden. 

Vortellhaflenveise werden die auf die genannte Art erBtellten, fQr die DatensStze aus 
der Datenbank charakteristischen Kurzdatensatze zur Emiittiung von fQr eine vorgeb- 
bare Suchanfrage relevanten DatensStzen aus der Datenbank. insbesondere aus dem 
World-Wide-Web. genutzt. indem die solchennaRen erstelJten. in einem Speichermodul 
hinterlegten Kurzdatensatze auf ihre Relevanz fQr die jeweilige Suchanfrage hin 
durchsucht werden. Als Kriterium fQr die Ermittlung dieser Relevanz kann dabel bei- 
splelsweise die Haufigkeit dienen, mit der ein SchlQssel- oder Keywort der Suchanfrage 
Im jeweillgen Kurzdatensatz aufgefunden werden kann, wobel zudem noch eine Dlffe- 
renzierung nach dem Ort des jeweillgen Auffindens. beispielsweise in einer Oberschrlft 
Oder im Volltext, vorgenommeh werden kann. 

BezQglich des Suchsystems zur Ermittlung von fQr eine vorgebbare Suchanfrage rele- 
vanten Datensatzen aus einer Datenbank, insbesondere aus dem World-Wide-Web, 
wird die genannte Aufgabe gelost. indem in einem Speichermodul fQr die Datensatze 
charakteristische Kurzdatensatze hinterlegt sind. wobei die zur Erstellung eines 
Kurzdatensatzes aus einem Datensatz bereitgestellten Systemressourcen unter Be- 
riicksichtigung von hinterlegten Erfahrungswerten aus vorangegangenen Suchanfragen 
gewahit sind. 



Die Erfahrungswerte umfassen dabei vorteilhaftenA^else eine ftir die Anzahl gleichartiger 
Suchanfragen in einem vorgebbaren Zeitintervall charakteristische Kennzahl. In 
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zusatzficheroderalternafivervorteHhafter Ausgestaltung sind als Systemressourcen die 
Ressourcen eines zur Erstellung der fOr die DatensStze jeweils charal<terlstischen 
Kurzdatensatze vorgeselienen Durchsuchermoduls unter BerQcl^sichtigung von hin- 
teriegten Erfahrungswerten aus vorangegangenen Suchanfragen gewShlt. 

Die mit der Erfindung erzielten Vortelle bestehen insbesondere darin, dass durch die 
Beriicl^sichtlgung von Erfahrungswerten aus vorangegangenen Suchanfragen bei der 
Vergabe der Systemressourcen bei der Erstellung des Index Oder der fOr die Daten- 
satze charakteristischen Kurzdatensatze bereits In einem besonders frOhen Stadium, 
namlich in der Vorbereitungsphase einer Datenbank- oder Internet-Recherche, eine 
welt gehende BerOcksichtlgung des aktuell vorhandenen Benutzerinteresses ermSglicht 
ist. Gerade durch die BerQcksichtigung des Benutzerinteresses erg^nzend zu oder 
anstelle von bisher venvendeten Datenbank spezifischen Charakteristika wie bel- 
spielsweise der Haufigkeit der jeweiligen Quervenweise Ist eIne vom Benutzer als 
besonders hochwertig angesehene Infomiationsbeschaffung ennoglicht EIn besondere 
spezifisches Abbild des Benutzerinteresses und somit eine besonders hohe Ge- 
nauigkeit bei der Vergabe der Ressourcen Ist dabei errelchbar durch die BerQcksichti- 
gung von korrelationen zwischen einzelnen Elementen von Suchanfragen. wobel ge- 
rade besondei:s hSufig venvendete Komblnatlonen spezifischer EInzelelemente und der 
RUckschluss auf die mit derartigen kombinlerten Suchanfragen als Ergebnis aufgefun- 
denen Datensatze oder Domains eIne in besonderem MaBe an das Benutzerinteresse 
angepasste Treffergenerierung erwarten l§sst. 

EIn AusfOhrungsbeisplel der Erfindung wird anhand einer Zeichnung naher erlSutert. 
Darin zeigt die Figur schematisch ein Suchsystem zur Ermittlung. von fOr eine vorgeb- 
bare Suchanfrage relevanten DatensStzen oder Domains aus dem World-Wide-Web. 

Das Suchsystem 1 gemali der Figur ist tiber die mittels der Doppelpfelle 2 angedeu- 
teten Datenleitungen des Internets oder Worid-Wide-Web mit einer VIelzahl von Do- 
mains 4 verbunden. wobel Jede Domain 4 Ihrerselts typischenwelse eine VIelzahl von 
Unterdatensatzen. Textbaustelnen. multlmedialen Informationselementen oderder- 
gleichen umfasst. 
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Aufgrund dergroRen Vielzahl an im Worid-Wlde-Web verfDgbaren Informationen ist 
das Suchsystem 1 fQrdie Bearbeltung elner Suchanfrage njchtfQrdie Durchsuchung 
der Domains 4 oder der in ihnen enthaltenen Informationsinhalte auf das Vorhanden- 
sein bestimmter SchlOsselworter oder Keyworter, sondem statt dessen fQr die Durchsu- 
cliung eines in einem Speichennodul 6 hinterlegten so genannten Index 8 ausgelegt. 
Der Index 8 umfasst eine Vielzahl von Kurzdatens§tzen 10, von denen jeder jev»^ells fQr 
einen Datensatz oder eine Domain 4 des World-Wide-Web charakteristlsch Ist. Jeder 
Kurzdatensatz 10 enthait dabel eInen als relevant erkannten Tell des Informatlonsge- 
halts der Jewells zugeordneten Domain 4, wobel Im Kurzdatensatz 10 insbesondere die 
In der jeweillgen Domain 4 enthaltene Textlnfonnation wledeigegeben Ist. Zur Bear- 
beltung elner Suchanfrage wird diese, wie durch den Pfell 12 angedeutet, einem Eln- 
/Ausgabemodul 14 des Suchsystems 1 zugeflihrt, von wo aus anhand von fCir die 
Suchanfrage charakteristischen SchlQssel- oder Keywortem eine Durchsuchung der 
Kurzdatensatze. 10 gestartet wird. Abhangig von der Anzahl der Ergebnisse oder Tref- 
fer, mit denen das Vorhandensein von SchlQssel: oder KeywSrtern In den Kurzdaten- 
satzen 10 festgestellt wird, wIrd die mit dem jeweiligen Kurzdatensatz 10 korrespondle- 
rende Domain 4 als fOr die Suchanfrage relevant erkannt und die entsprechende Do- 
mainadresse dem Benutzer auf elner Ergebnisliste mitgetellt. 

Zur Erstellung der fDr die Domains 4 charakteristischen KunzdatensStze 10, die in ihrer 
Gesamthelt den Index 8 bilden, umfasst das Suchsystem 1 ein auch als „Crawler" be- 
zelchnetes Durchsuchemnodul 16. Das Durchsuchennodul 16 nimmt In regelmSBigen, 
vorzugswelse zykllschen Zeltinten/allen Kontakt mit den jeweiligen Domains 4 auf und 
durchsucht diese hinsichtllch ihres infonnationsgehaits. Dabei kann insbesondere vor- 
gesehen sein, die auf der jeweiligen Domain 4 hinterlegte Textinformation zu erfassen 
und geeignet zu komprimleren. Art und Umfang der Analyse des Inhalts jeder Domain 4 
durch das Durchsuchermodul 16 werden dabel durch die Vorgabe spezlfischer 
Systemressourcen des Durchsuchermoduls 16 fOr die jewelllge Domain 4 festgelegt. 
Als Systemressourcen kSnnen dabel abhangig von d.er jeweiligen Domain 4 belsplels- 
weise die fQr die Durchsuchung vorgesehene Zeitspanne. die eingesetzte 
Rechnerlelstung und/oder zugewlesene Speicherkapazitaten vorgegeben sein. Dabei 
kann insbesondere auch vorgegeben sein, ob die jewellige Domain 4 vom Durchsu- 
chennodul 16 Qberhaupt angesprochen oder von vomherein ignoriert werden soli. An- 
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hand der bei der Durchsuchung ermlttelten Informationsbasis fUr die jewellige Domain 4 
wird anschlielSend vom Durchsuchermodul 16 In der Art einer Kurzfassung der zuge- 
ordnete Kurzdatensatz 10 ersteilt.und als Bestandtell des Index 8 Im Spelchermodul 6 
abgelegt. 



Die Zuordnung der Systemressourcen fur die Durchsuchung der jewelllgen Domain 4 
kann beisplelswelse In Abhanglgkelt domalnspeziflscher Relevanzkennwerte erfolgen. 
Dabei konnen auch so genannte statlsche Relevanzkennwerte vorgesehen sein, die 
anhand vorgegebener Kriterien wie beisplelswelse dem Vernetzungsgrad elner Domain 
4 mit anderen Domains 4 charakterisleren, wIe hoch der Akzeptanzgrad der jewelligen 
Domain 4 bei den Benutzem 1st. Anhand dieser Relevanzkennwerte kann festgelegt 
sein. Ob eine Domain 4 bei der Durchsuchung Cibertiaupt berQcksichtigt wird, und falls 
ja, wie sorgfaitig die Durchsuchung der jewelllgen Domain 4 bei der Erstellung des 
zugeordneten Kurzdatensatzes 10 erfolgen soil. 

DarQber hinaus 1st das Suchsystem 1 aber auch dafQr ausgelegt, bei der Ersteliung der 
Kurzdatensatze 10 Erfahrungswerte und Erkenntnisse aus den vorangegangenen 
Suchanfragen mIt zu berilckslchtigen und somit das darin wiedergegebene aktuelle 
Benutzerinteresse in besonderem Ma&e In die Erstellung oder zyklische Emeuerung 
des Index 8 miteinfllellen zu lassen. Dazu 1st dem Speichemiodul 6 ein weiteres Spel- 
chermodul 18 zugeordnet. In dem in der Art eines Logbuchs die eingehenden Suchan- 
fragen zur weiteren Auswertung abgelegt werden. Die Inhalte des Speichermoduls 18 
werden einem Analysemodul 20 zugangllch gemacht, das die eingegangen Suchan- 
fragen elner Auswertung unterzieht und anhand derdabel gewonnenen Erkenntnisse 
eIne Neuverteilung der Systemressourcen auf die zu berQckslchtigenden Domains 4 
belm nachsten Durchsuchungszyklus vomimmt. Die entsprechende Zuordnung der 
Systemressourcen ubemnittelt das Analysemodul 20, wie Qber den Pfell 22 dargestellt, 
anschlledend an das Durchsuchermodul 16. 

Bel der Zuordnung der Systemressourcen berQcksichtigt das Analysemodul 20 somIt 
Eri^ahmngswerte aus vorangegangenen Suchanfragen. Dies kann beisplelswelse da- 
durch geschehen. dass die HSuflgkelt einer Suchanfrage oder eines Schliissel- oder 
Keyworts als EInzelelement einer Suchanfrage ermittelt wird, wobel bei hSuflg verwen- 
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deten Suchanfragen Oder Einzelelementen von Suchanfragen auf eine derzelt ver- 
gleichswelse hohe Popularitat bel den Benutzem geschlossen wird. Dementsprechend 
wind angenommen, dass die bel vergleichsweise popuiaren Suchanfragen 
aufgefundenen und als relevant erkannten DatensStze oder Domains 4 in vergleichs- 
weise hohem MaC>e das aktuelle Benutzerinteresse widereplegeln. In dleser AusfQh- 
rungsfomn kann das Analysemodul 20 somit denjenigen Domains 4, die als Ergebnis fQr 
vergleichsweise hSufig verwendete Suchanfragen aufgefQhrt wenJen, einen ent- 
sprechend erhOhten Antell an Systemressourcen bei der nachstfolgenden Durchsu- 
chung durch das Durchsuchennodul 16 zuorelnen. 

Dartiber hinaus ist das Suchsystem 1 aber auch dafQr ausgelegt, vergleichsweise kom- 
plexe Strukturen im Profil der Suchanfragen bel derZuordnung der Systemressourcen 
durch das Analysemodul 20 mitzuberflcksichtlgen. Dabei werden bei der Ennittlung der 
Erfahrungswerte Insbesondere auch Korrelationen zwischen Einzelelementen von 
Suchanfragen mitberCickslchtigt. Fails beispielsweise festgestellt wird. dass einzelne 
Elemente oder SuchwSrter in Suchanfragen besonders hSufig mit bestimmten anderen 
Einzelelementen oder Suchwortern kombiniert werden. so wird auf eIne hohe intrinsl- 
sche Korrelatlon zwischen diesen beiden Suchelementen geschlossen, so dass elner- 
seits diejenigen Domains 4. in denen vollstandige oder approximative Kombinatlonen 
aufgefunden werden, als besonders relevant erkannt werden, wobei andererseits bel 
der Auswertung der relativen HSufigkeiten einzelner Suchelemente auch die relativen 
Haufigkeiten der damit besonders kon-elierten weiteren Suchelemente berOcksichtigt 
werden k5nnen. 



Zur statlstlschen Auswertung der Suchanfragen wird dabei im Analysemodul 20 eine 
Kon-elationsmatrix erstellt. deren Matrixelemente ein quantitatives MaB fOr die Kon-ela- 
tion zwischen jeweils zwei Einzelelementen von Suchanfragen angeben. Als quantitati- 
ves Mali kann dabei Insbesondere die relative Haufigkelt. mit der die beiden jeweiligen 
Einzelelemente von Suchanfragen miteinander in Komblnatlon gefragt werelen, vorge- 
sehen sein. Diese Kon-elationsmatrix wird anschlleBend durch eIne Hauptachsentrans- 
formation diagonallsiert, wobel auf der Hauptdiagonalen der diagonallsierlen Matrix die 
Eigenwerte der ursprtinglichen Konrelatlonsmatrix angegeben sind. Bei dleser 
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Hauptachsentransformatlon werden zudem die Elgenvektoren der Korrelationsmatrix 
ermittelt. 

Die Eigenwerte und Eigenvel<toren der Korrelationsmatrix konnen anschlieliend fQr eine 
weitere Auswertung der Suchanfragen herangezogen werden. DIejenigen Eigenvekto- 
ren der Korrelationsmatrix, die einen vergleichswelse gro&en Eigenwert autweisen, ent- 
sprechen dabei einem Mix von Einzelelementen von Suchanfragen, der gemau der Li- 
nearkoefflzlenten der Einzelelemente der Suchanfragen vergleichswelse hSufig in typi- 
schen Suchanfragen vorkommt und somit in besonderem Ma&e das aktuelle Benut- 
zerinteresse widerspiegelt. Es werden somit In einem nSchsten Schritt diejenigen El- 
genvektoren der Korrelationsmatrix ausgewShlt, denen ein vergleichswelse groBer 
Eigenwert zugeordnet ist. Durch die so ermlttelten Elgenvektoren erhalt man Im Er- 
gebnis einen Mix von Suchanfragen, die in der jeweiligen Kombination mit besonders 
hoher Wahrscheinlichkelt in jungster Vergangenheit vorgekommen sind. 

Mit deh so ausgewahlten, vergleichswelse groBen Eigenwerten der Korrelationsmatrix 
zugeordneten ..Eigenanfragen" greift das Analysemodul 20 in der Art einer Testanfrage 
auf den Index 8 zu und ermittelt so fQr jede „Elgenanfrage" die zu dieser Eigenanfrage 
als relevant erkannten Datensdtze oder Domains 4. Da die solchemiaBen ennittelten 
Domains 4 in besonderem MaBe dem aktuellen Benutzerinteresse entsprechen, wer- 
den fOr diese Domains 4 die Systemressourcen bei der erneuten Durchsuchung des 
Worid-Wide-Web im Vergleich zum vorigen Durchlauf proportional erhOht. Dies kann 
beisplelsweise durch eine Zuweisung eines WIchtungsfaktors bei der Bereitstellung der 
Systemressourcen fQr die jeweilige Domain 4 nach der Beziehung 



erfolgen, wobel der Eigenwert der zugehOrigen Eigenanfrage Dk eine auf dIese Ei- 
genanfrage ais Treffer angezeigte Domain 4 und a eine geeignet gewShlte Konstante 
>0 sein kann. 
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Bezugszeichenliste 
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16 Durchsuchermodul 

18 Speichermodul 

20 Analysemodul 

22 Pfeil 
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AnsprQche 

Verfahren zur Erstellung von fur DatensStze (4) aus einer Datenbank, insbeson- 
dere aus dem Worid-Wide-Web, charakteristlschen Kurzdatensatzen (10) zur 
Hlnterlegung auf einem Speichermodul (6) als Basis zur Ermittlung der fQr eine 
vorgebbare Suchanfrage relevanten Datensatze (4), bei dem die zur Erstellung el 
nes Kurzdatensatzes (10) aus eInem Datensatz (4) bereitgestellten Systemres- 
sourcen unter Berflcksichtlgung von ennittelten Erfahrungswerten aus vorange- 
gangenen Suchanfragen gewdhit vferden. 

Verfahren nach Anspmch 1 , be! dem die Erfahrungswerte eIne fOr die Anzahl 
gleichartiger Suchanfragen in einem vorgebbaren Zeltlntervall charakteristische 
Kennzahl umfassen. 

Verfahren nach Anspruch 1 oder 2, bel dem als Systemressourcen die Ressour- 
cen Bines zur Erstellung der fOr die Datensatze (4) jeweils charakteristlschen 
Kurzdatensatze (10) vorgesehenen Durchsuchermoduls (16) unter Berticksichtl- 
gung von ermittelten Erfahrungswerten aus vorangegangenen Suchanfragen ge- 
wShltwerden. 

Verfahren nach einem der AnsprOche 1 bis 3, bei dem bei der Ennittlung der Er- 
fahrungswerte Kon-elatlonen zwischen Einzelelementen der Suchanfragen be- 
rQcksichtigt werden. 

Verfahren nach einem der AnsprOche 1 bis 4, bei dem bei der Ermittlung der Er- 
fahrungswerte die relative Haufigkeit von Suchanfragen und/odervon Einzelele- 
menten der Suchanfragen berQcksichtigt wird. 

Verfahren nach Anspmch 5, bei dem denjenigen DatensStzen (4), die f£ir eine 
vorgegebene Suchanfrage Oder fOr eine vorgegebene Kombination aus Einzele- 
lementen von Suchanfragen als relevant erkannt werden, proportional zur relati- 
ven Haufigkeit der Suchanfrage bzw. der Kombination aus Einzelelementen von 
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Suchanfragen zusatzllche Systemressourcen fDr die Erstellung des zugeordneten 
Kurzdatensatzes (10) zugewiesen werden. 

7. Verfahren zur Ermittlung von fQr eine vorgebbare Suchanfrage relevanten Da- 
tensatzen (4) aus einer Datenbank. insbesondere aus dem World-Wide-Web, bei 
dem in einem Speichermodul (6) hinteriegte. fUr die Datensatze (4) charakteristi- 
sche. nach dem Verfahren nach einem der AnsprQche 1 bis 6 erstellte Kurzda- 
tensatze (10) auf ihre Relevanz fQr die jeweilige Suchanfrage hin durchsucht wer- 
den. 

8. Suchsystem (1 ) zur Ermittlung von fQr eine vorgebbare Suchanfrage relevanten 
Datensatzen (4) aus einer Datenbank, insbesondere aus dem World-Wide-Web, 
insbesondere zur DurchfQhmng des Verfahrens nach Anspruch 7, bei dem in ei- 
nem Speichemiodul (6) fQr die Datensatze charakteristische Kurzdatensatze (10) 
hinterlegt sind, wobei die zur Erstellung eines Kurzdatensatzes (10) aus einem 
Datensatz (4) bereltgestellten Systemressourcen unter BerQcksichtigung von hln- 
terlegten Erfahnjngswerten aus vorangegangenen Suchanfragen gewahit sind. 

9. Suchsystem (1 ) nach Anspruch 8. bei dem die Erfahrungswerte eine fQr die An- 
zahl gleichartiger Suchanfragen in einem vorgebbaren Zeitintervall charakteristi- 
sche Kennzahl umfassen. 

1 0. Suchsystem (1 ) nach Anspmch 8 oder 9. bei dem als Systemressourcen die 
Ressourcen eines zur Erstellung der fQr die DatensStze (4) jeweils charakte- 
ristischen Kurzdatensatze (10) vorgesehenen Durchsuchemioduls (16) unter 
BerQcksichtigung von hinterlegten Erfahmngswerten aus vorangegangenen 
Suchanfragen gevt/ahit sind. 
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